Although weakly-supervised techniques can reduce the labeling effort, it is unclear whether a saliency model trained with weakly-supervised data (e.g., point annotation) can achieve the equivalent performance of its fully-supervised version. This paper attempts to answer this unexplored question by proving a hypothesis: there is a point-labeled dataset where saliency models trained on it can achieve equivalent performance when trained on the densely annotated dataset. To prove this conjecture, we proposed a novel yet effective adversarial trajectory-ensemble active learning (ATAL). Our contributions are three-fold: 1) Our proposed adversarial attack triggering uncertainty can conquer the overconfidence of existing active learning methods and accurately locate these uncertain pixels. {2)} Our proposed trajectory-ensemble uncertainty estimation method maintains the advantages of the ensemble networks while significantly reducing the computational cost. {3)} Our proposed relationship-aware diversity sampling algorithm can conquer oversampling while boosting performance. Experimental results show that our ATAL can find such a point-labeled dataset, where a saliency model trained on it obtained $97\%$ -- $99\%$ performance of its fully-supervised version with only ten annotated points per image.
translated by 谷歌翻译
In RGB-D based 6D pose estimation, direct regression approaches can directly predict the 3D rotation and translation from RGB-D data, allowing for quick deployment and efficient inference. However, directly regressing the absolute translation of the pose suffers from diverse object translation distribution between the training and testing datasets, which is usually caused by the diversity of pose distribution of objects in 3D physical space. To this end, we generalize the pin-hole camera projection model to a residual-based projection model and propose the projective residual regression (Res6D) mechanism. Given a reference point for each object in an RGB-D image, Res6D not only reduces the distribution gap and shrinks the regression target to a small range by regressing the residual between the target and the reference point, but also aligns its output residual and its input to follow the projection equation between the 2D plane and 3D space. By plugging Res6D into the latest direct regression methods, we achieve state-of-the-art overall results on datasets including Occlusion LineMOD (ADD(S): 79.7%), LineMOD (ADD(S): 99.5%), and YCB-Video datasets (AUC of ADD(S): 95.4%).
translated by 谷歌翻译
关于多模式情绪识别的最新作品转向端到端模型,该模型可以提取与两阶段管道相比,目标任务监督的特定任务特征。但是,以前的方法仅模拟文本和声学和视觉方式之间的特征相互作用,而忽略了捕获声学和视觉方式之间的特征相互作用。在本文中,我们提出了多模式的端到端变压器(ME2ET),该变压器可以有效地对低级和高级水平的文本,声学和视觉方式之间的三模式特征进行建模。在低水平,我们提出了进行性三模式的注意,可以通过采用两次通行策略来对三模式特征相互作用进行建模,并可以进一步利用这种相互作用,以通过降低输入令牌来显着降低计算和记忆复杂性长度。在高水平上,我们引入了三模式特征融合层,以明确汇总三种模式的语义表示。 CMU-MOSEI和IEMOCAP数据集的实验结果表明,ME2ET实现了最新性能。进一步的深入分析证明了拟议的渐进三模式关注的有效性,效率和解释性,这可以帮助我们的模型实现更好的性能,同时显着降低计算和记忆成本。我们的代码将公开可用。
translated by 谷歌翻译
可重新配置的智能表面(RIS)可以显着增强TERA-HERTZ大量多输入多输出(MIMO)通信系统的服务覆盖范围。但是,获得有限的飞行员和反馈信号开销的准确高维通道状态信息(CSI)具有挑战性,从而严重降低了常规空间分裂多次访问的性能。为了提高针对CSI缺陷的鲁棒性,本文提出了针对RIS辅助TERA-HERTZ多用户MIMO系统的基于深度学习的(DL)基于速率的多访问(RSMA)方案。具体而言,我们首先提出了基于DL的混合数据模型驱动的RSMA预编码方案,包括RIS的被动预编码以及模拟主动编码和基本站(BS)的RSMA数字活动预码。为了实现RIS的被动预码,我们提出了一个基于变压器的数据驱动的RIS反射网络(RRN)。至于BS的模拟主动编码,我们提出了一个基于匹配器的模拟预编码方案,因为BS和RIS采用了Los-Mimo天线阵列结构。至于BS的RSMA数字活动预码,我们提出了一个低复杂性近似加权的最小均方误差(AWMMSE)数字编码方案。此外,为了更好地编码性能以及较低的计算复杂性,模型驱动的深层展开的主动编码网络(DFAPN)也是通过将所提出的AWMMSE方案与DL相结合的。然后,为了在BS处获得准确的CSI,以实现提高光谱效率的RSMA预编码方案,我们提出了一个CSI采集网络(CAN),具有低飞行员和反馈信号开销,下行链接飞行员的传输,CSI在此处使用CSI的CSI反馈。 (UES)和BS处的CSI重建被建模为基于变压器的端到端神经网络。
translated by 谷歌翻译
神经切线内核(NTK)是分析神经网络及其泛化界限的训练动力学的强大工具。关于NTK的研究已致力于典型的神经网络体系结构,但对于Hadamard产品(NNS-HP)的神经网络不完整,例如StyleGAN和多项式神经网络。在这项工作中,我们为特殊类别的NNS-HP(即多项式神经网络)得出了有限宽度的NTK公式。我们证明了它们与关联的NTK与内核回归预测变量的等效性,该预测扩大了NTK的应用范围。根据我们的结果,我们阐明了针对外推和光谱偏置,PNN在标准神经网络上的分离。我们的两个关键见解是,与标准神经网络相比,PNN能够在外推方案中拟合更复杂的功能,并承认相应NTK的特征值衰减较慢。此外,我们的理论结果可以扩展到其他类型的NNS-HP,从而扩大了我们工作的范围。我们的经验结果验证了更广泛的NNS-HP类别的分离,这为对神经体系结构有了更深入的理解提供了良好的理由。
translated by 谷歌翻译
我们研究(选定的)宽,狭窄,深而浅,较浅,懒惰和非懒惰的训练环境中(选定的)深度神经网络中的平均鲁棒性概念。我们证明,在参数不足的环境中,宽度具有负面影响,而在过度参数化的环境中提高了鲁棒性。深度的影响紧密取决于初始化和训练模式。特别是,当用LeCun初始化初始化时,深度有助于通过懒惰训练制度进行稳健性。相反,当用神经切线核(NTK)初始化并进行初始化时,深度会损害稳健性。此外,在非懒惰培训制度下,我们演示了两层relu网络的宽度如何使鲁棒性受益。我们的理论发展改善了Huang等人的结果。[2021],Wu等。[2021]与Bubeck and Sellke [2021],Bubeck等人一致。[2021]。
translated by 谷歌翻译
识别密集混乱中的物体准确地对各种机器人操纵任务发挥了重要作用,包括抓握,包装,重新安排等。但是,传统的视觉识别模型通常会因为实例之间的严重阻塞而错过对象,并且由于视觉上的歧义与高对象拥挤的歧义导致了不正确的预测。在本文中,我们提出了一个称为Smart Explorer的交互式探索框架,用于识别密集的杂物中的所有对象。我们的Smart Explorer会与混乱物进行物理互动,以最大程度地提高识别性能,同时最大程度地减少动作数量,在这种情况下,可以通过最佳的准确性效率折衷来有效地减轻误报和负面因素。具体而言,我们首先收集混乱的多视图RGB-D图像,然后重建相应的点云。通过跨视图汇总RGB图像的实例分割,我们获得了杂物的实例云分区,该杂物通过该杂物的存在和每个类的对象数量。生成有效物理互动的推动动作可大大减少由实例分割熵和多视图对象分歧组成的识别不确定性。因此,通过迭代实例预测和物理互动实现了对象识别在密集混乱中的最佳精度效率折衷。广泛的实验表明,我们的Smart Explorer仅使用几个动作获得了有希望的识别精度,这也超过了随机推动的大幅度。
translated by 谷歌翻译
我们考虑了个性化新闻推荐的问题,每个用户都以顺序消费新闻。现有的个性化新闻推荐方法的重点是利用用户兴趣,而忽略了推荐中的探索,从而导致反馈循环并长期损害了建议质量。我们基于上下文土匪推荐策略,自然可以解决剥削 - 探索权衡取舍。主要挑战是探索大规模项目空间并利用不确定性的深层表示的计算效率。我们提出了一个两阶段的分层主题,新的深层上下文强盗框架,以在有许多新闻项目时有效地学习用户偏好。我们为用户和新闻使用深度学习表示形式,并将神经上限限制(UCB)策略推广到广义添加剂UCB和BILINEAR UCB。大规模新闻建议数据集的经验结果表明,我们提出的政策是有效的,并且表现优于基线匪徒政策。
translated by 谷歌翻译
由于存在浓烟或阴霾,从室外视觉环境收集的图像通常会降解。在这些退化的视觉环境(DVE)中,在场景理解中进行研究的关键挑战是缺乏代表性的基准数据集。这些数据集需要评估降级设置中的最新对象识别和其他计算机视觉算法。在本文中,我们通过引入带有朦胧和无雾图像的第一个配对的真实图像基准数据集以及原位的雾化密度测量来解决其中的一些限制。该数据集是在受控的环境中生产的,其专业烟雾产生机器覆盖了整个场景,并由从无人机(UAV)(UAV)和无人接地车(UGV)的角度捕获的图像组成。我们还评估了一组代表性的最先进的飞行方法以及数据集中的对象探测器。本文介绍的完整数据集,包括地面真相对象分类框和雾密度测量值,为社区提供了以下网址评估其算法的信息:https://a2i2-archangel.vision。该数据集的一个子集已用于在CVPR UG2 2022挑战的雾痕中进行对象检测。
translated by 谷歌翻译
不同的应用方案将导致IMU表现出不同的误差特征,这将导致机器人应用程序。但是,大多数数据处理方法需要设计用于特定方案。为了解决这个问题,我们提出了一些拍摄的域适应方法。在这项工作中,考虑了一个域适应框架用于去噪IMU,旨在改善域适应性的重建损失。此外,为了进一步提高数据的情况下的适应性,采用了几次拍摄的培训策略。在实验中,我们在两个数据集(EUROC和TUM-VI)上量化了我们的方法,以及具有三种不同精密IMU的两个真正的机器人(汽车和四叉机器人)。根据实验结果,通过T-SNE验证了我们框架的适应性。在方向结果中,我们的提出方法显示出巨大的去噪能力。
translated by 谷歌翻译